科技行业近期两大热点:AI应用公司MiniMax表现强劲,全球企业及开发者客户突破百万,半年增长5倍,用户规模达3亿;3D打印企业创想三维上市,标志消费级3D打印进入普及阶段。
3D生成AI领域迎来重大突破,Hyper3D发布Rodin Gen-2.5模型,号称全球最强。该模型实现4秒生成百万面模型,并首次达到千万面级3D生成,细节可呈现毛孔和皮肤微结构。其核心创新是引入自适应思考努力机制,根据任务复杂度动态调整计算资源,标志着AI3D从“能看”迈向“能用”阶段。
阿里巴巴千问AI眼镜S1重大升级,推出主动服务能力,能根据天气、时间、日程提供个性化提醒,如出门时提示带伞。同时新增打车、闪购、行程规划等生活服务功能,提升用户出行便捷性。
Adobe发布Photoshop和Lightroom重大更新,将生成式AI扩展至3D空间处理。核心亮点是“旋转对象”工具,允许用户在3D空间中实时旋转、倾斜或翻转2D素材,自动调整透视角度和环境视觉逻辑,显著提升合成创作效率与效果。
帮助您创建技术、2.5D 和 3D 等布局。
快速生成 2D 平面图和 3D 模型的 AI 工具。
Vismint的AI 3D模型生成器,可将图像转换为多种格式3D模型
Vaibie借助AI将游戏描述转化为可玩的浏览器游戏和3D世界。
Tencent
-
输入tokens/百万
输出tokens/百万
24
上下文长度
$0.8
$2
32
Chatglm
HIT-TMG
Uni-MoE 2.0-Omni 是荔枝科技(Lychee)推出的完全开源全模态模型,采用全模态 3D RoPE 和动态容量专家混合架构,显著提升了以语言为中心的多模态理解、推理和生成能力。该版本集成了全模态理解以及音频和图像生成能力。
GatorBarbarian
TRELLIS Text XL是一个大型3D生成模型,是TRELLIS的文本条件版本,模型大小为XL。该模型基于论文《Structured 3D Latents for Scalable and Versatile 3D Generation》提出,能够根据文本描述生成高质量的3D内容。
Ashmotv
animat3d_style_wan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频生成,可为图像生成带来独特的3D动画风格效果。该模型基于Wan2.2-T2V-A14B基础模型进行微调,支持多种主流AI平台使用。
facebook
MapAnything是一个端到端训练的Transformer模型,能够以多种模态作为输入,直接回归场景的分解度量3D几何结构。该模型支持超过12种不同的3D重建任务,包括多图像SfM、多视图立体视觉、单目度量深度估计等。
manycore-research
FLUX.1-Layout-ControlNet是SpatialGen框架的关键组件,是一个基于语义图像条件化的ControlNet模型。它能够根据文本描述生成2D图像,同时严格遵循输入语义图像的布局约束,主要用于3D室内场景合成。
yslan
STream3R是一种基于因果Transformer的可扩展序列3D重建模型,将点云图预测重新定义为仅解码器的Transformer问题。它引入流式处理框架,利用因果注意力高效处理图像序列,能够很好地泛化到各种具有挑战性的场景,包括传统方法经常失效的动态场景。
nvidia
ESM-2是NVIDIA基于TransformerEngine优化的蛋白质语言模型,能够从氨基酸序列预测蛋白质3D结构。该模型采用掩码语言建模目标训练,在NVIDIA GPU上具有更快的训练和推理速度。
ilkerzgi
这是一个LoRA模型,可将普通图像转换为具有黑色背景和3D视角的金属风格图像。
lhjiang
AnySplat是一种先进的3D高斯散点渲染模型,能够从不同视角的图像高效生成高质量的3D场景。该模型具有快速推理能力和良好的泛化性能,为3D重建和渲染提供了创新的解决方案。
tencent
混元3D-2是一款支持图像到3D、文本到3D转换的工具,为3D内容生成提供了强大的解决方案。
shakamone
TRELLIS是一个基于图像条件的大型3D生成模型,采用结构化3D潜变量实现可扩展与多功能的3D生成。
davidleiva4999
TRELLIS的文本条件版本,采用XL大模型规模,是一款强大的3D生成模型。
unsloth
InternVL3-78B-Instruct是一个先进的多模态大语言模型,在多模态感知、推理和语言处理等方面表现出色。该模型通过原生多模态预训练方法,将视觉和语言学习整合到统一训练阶段,在工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域展现出卓越能力。
ImrozeAslamMalik
LGM是一个整合了多视角扩散模型的图像转3D工作流,能够从单张图像生成高质量3D内容。
ImrozeAslam
混元3D 2.0是一个先进的大规模3D合成系统,用于生成高分辨率带纹理的3D资产。
InternVL3-14B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。
InternVL3-2B-Instruct是先进的多模态大语言模型,相比前代有更出色的多模态感知和推理能力,扩展了工具使用、GUI代理、工业图像分析、3D视觉感知等方面。采用原生多模态预训练方法,将语言和视觉学习整合到单个预训练阶段。
InternVL3-78B是一款先进的多模态大语言模型,具备卓越的多模态感知和推理能力,在工具使用、GUI代理、工业图像分析、3D视觉感知等领域表现出色,整体文本性能也十分优秀。
InternVL3-14B是一个先进的多模态大语言模型,在InternVL 2.5基础上显著提升了多模态感知和推理能力,并拓展了工具使用、GUI代理、工业图像分析、3D视觉感知等领域的应用。
Surn
TRELLIS图像条件版本是一个大型3D生成模型,能够从图像生成3D内容。
BlenderMCP通过MCP协议将Blender与Claude AI连接,实现AI辅助3D建模与场景控制
Vestige是一个基于认知科学的AI记忆引擎,通过实现预测误差门控、FSRS-6间隔重复、记忆梦境等29个神经科学模块,为AI提供长期记忆能力。包含3D可视化仪表板和21个MCP工具,完全本地运行,无需云端。
Tripo MCP Server是一个连接AI助手与Tripo AI的接口项目,支持通过自然语言生成3D资产并导入Blender。
Blender MCP VXAI 是一个强大的集成工具,允许用户通过自然语言控制 Blender,实现 3D 建模、动画和场景的创建与修改。它简化了复杂操作,并支持实时导出到项目中。
FreeCAD MCP是一个通过Claude Desktop控制FreeCAD的插件,支持从2D图纸创建3D模型等多种设计功能。
Tripo MCP Server是一个连接AI助手与Tripo AI的接口工具,支持通过自然语言生成3D资产并导入Blender。
RhinoMCP是一个连接Rhino 3D建模软件与AI代理的工具,通过Model Context Protocol实现双向交互,支持3D对象操作、文档检查和脚本执行。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
Cinema4D MCP Server是一个连接Cinema 4D与Claude的桥梁,通过提示词辅助进行3D场景操作和建模。
一个利用AI生成游戏资源的工具,支持2D和3D资源创建,集成Hugging Face和MCP协议。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的工具,支持多视角重建和远程处理。
RhinoMCP是一个连接Rhino3D和Claude AI的集成项目,通过Model Context Protocol实现AI辅助3D建模、分析和设计工作流。
Unity AI ProBuilder是一个基于MCP协议的AI驱动3D建模工具,通过自然语言命令在Unity编辑器中创建和编辑可编辑网格,支持快速原型设计和程序化几何生成。
Worker17是一个结合3D监控与MCP协议的工人管理系统,包含Web可视化界面和服务器端,支持通过Claude Desktop进行AI辅助管理。项目起初是个玩笑,后发展为MCP服务器技术探索。
MCP 3D打印机服务器是一个连接Claude与多种3D打印机管理系统的协议服务器,支持OctoPrint、Klipper、Duet等多种打印机API,提供文件管理、打印控制、STL模型处理等高级功能。
一个基于OpenSCAD的MCP服务器,通过AI生成多视角图像并重建为参数化3D模型,支持远程CUDA加速处理。
Rhino MCP服务器项目,实现Claude AI与Rhino 3D的交互,支持3D对象的创建与操作
Spline MCP服务器是一个为Spline 3D设计工具API提供接口的中间件服务
GH_mcp_server是一个通过LLMs直接与Rhino和Grasshopper交互的工具,支持分析3dm文件、3D建模及自动生成GHPython代码。
VGGT-MPS是基于苹果芯片优化的3D视觉重建工具,使用Metal Performance Shaders加速,能够从单张或多张图像生成深度图、相机姿态和3D点云,支持稀疏注意力实现城市级重建。